随着高通量测序技术的发展,海量的基因组序列数据为了解基因组的结构提供了数据基础。剪接位点识别是基因组学研究的重要环节,在基因发现和确定基因结构方面发挥着重要作用,且有利于理解基因性状的表达。针对现有模型对脱氧核糖核酸(DNA)序列高维特征提取能力不足的问题,构建了由BERT(Bidirectional Encoder Representations from Transformer)和平行的卷积神经网络(CNN)组合而成的剪接位点预测模型——BERT-splice。首先,采用BERT预训练方法训练DNA语言模型,从而提取DNA序列的上下文动态关联特征,并且使用高维矩阵映射DNA序列特征;其次,采用人类参考基因组序列hg19数据,使用DNA语言模型将该数据映射为高维矩阵后作为平行CNN分类器的输入进行再训练;最后,在上述基础上构建了剪接位点预测模型。实验结果表明,BERT-splice模型在DNA剪接位点供体集上的预测准确率为96.55%,在受体集上的准确率为95.80%,相较于BERT与循环卷积神经网络(RCNN)构建的预测模型BERT-RCNN分别提高了1.55%和1.72%;同时,在5条完整的人类基因序列上测试得到的所提模型的供体/受体剪接位点平均假阳性率(FPR)为4.74%。以上验证了BERT-splice模型用于基因剪接位点预测的有效性。
针对推荐系统算法中覆盖率和多样性偏低所带来的长尾问题,提出了一种长尾物品的推荐框架以及关注长尾物品的推荐算法FLTI。长尾物品的推荐框架是基于卷积神经网络(CNN)模型构建的,分为数据处理层、推荐算法层和推荐列表生成层。将FLTI算法加入到了框架中的推荐算法层,该算法首先计算了频繁推荐项以及非频繁推荐项,然后采用使用长尾物品替换频繁推荐项的方法来满足系统中指定的长尾比例。实验结果表明,在Movielens 1M和BookCrossing数据集上,FLTI算法比传统的基于用户的协同过滤(UserCF)算法、基于物品的协同过滤(ItemCF)算法、奇异值分解(SVD)推荐算法以及协同去噪自动编码(CDAE)算法在覆盖率指标上最多提高了51%,多样性指标上最多提高了59%。
针对机器人功能的更新、修改、升级、维护等工作,普遍只能采用离线、静态方式进行的问题,将"软件人"引入机器人平台中,搭建了以宿主"软件人"为管理中心的机器人系统架构,并重点对宿主"软件人"进行了研究。首先,构造了宿主"软件人"的体系结构;然后,提出了宿主"软件人"知识行为一体化描述模型,并对其知识模型进行了基于数据结构的构造和实现,对其主要服务类行为给出了相应的设计规范及算法的参考实现;最后,将引入宿主"软件人"的机器人系统与网络平台中的"软件人"系统进行合一,经测试,机器人功能的在线、动态更替取得成功,同时也验证了对宿主"软件人"设计、实现方法的正确性和可行性。